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Про проблему 1нтерпретаци тексту 


В статье рассмотрен подход к проблеме интерпретации текстовой информации. Предложен метод обработки 
текстовых фрагментов на основе нечеткой концептуальной модели представления знаний. Использование 
скрытых знаний (контекста), полученных путем вывода на основе опыта, позволяет расширить область 
интерпретации текста, а как следствие, повысить эффективность автоматизированных систем категоризации, 
аннотации, а также информационно-поисковых систем. 

Ключевые слова: модель представления знаний, интерпретация текста, контекст. 
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Введение 


Как самостоятельное научное направление искусственный интеллект (ИИ) су- 
ществует сравнительно недолго, но уже достигнуты существенные результаты, сфор- 
мированы некоторые концептуальные модели, устоялись определенные фундаменталь- 
ные парадигмы. Исследования ИИ влились в общий поток технологий сингулярности, 
таких как информатика, нанотехнология, молекулярная биоэлектроника, квантовая 
теория и т.д. И уже не вызывают удивления идеи, что именно эти исследования 
будут определять характер того информационного общества, которое уже приходит 
на смену индустриальной цивилизации. 

Одной из насущных и актуальных задач в современном информационном 
обществе является процесс накопления и применения корпоративных знаний. Инфор- 
мационные потоки, циркулирующие в информационно-аналитических центрах, преиму- 
щественно представляют собой неструктурированную разноязычную текстовую ин- 
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формацию. Принципиальной особенностью задач анализа текстовой информации 
является то, что предметом анализа выступают знания о предметной области, содержа- 
щиеся в текстовой информации. Таким образом, ядром системы поддержки информа- 
ционно-аналитической деятельности должна быть система автоматизации распознавания, 
извлечения и формализации знаний, содержащихся в текстах, т.е. система понимания 
и интерпретации текстовой информации. 

Решение поставленной задачи лежит на стыке ИИ и когнитивной психологии. 
Психолингвистические и психосемантические теории понимания текста предполагают, 
что в процессе понимания формируется смысл текста, отличный от исходного. 

Для создания систем интерпретации текстовой информации предлагается конце- 
птуальная модель представления знаний [1], которая сохраняет содержащиеся в 
тексте и генерирует на их основе новые знания. Концептуальная гибридная модель 
представляет собой систему знаний, которая содержит множество базовых элементов 
(объекты, действия, события) и связи между ними (классификационные структуры). 
Предложенная система знаний позволяет преображать экстенсиональные представления, 
выраженные фрагментом текста, в интенсиональные представления системы, с возмож- 
ностью появления новых представлений (извлечение из текста неявных знаний). В мо- 
дели используется концепция прототипов, что позволяет учитывать особенность вос- 
приятия мира человеком в зависимости от его познаний и окружения. Для учета 
особенностей человеческого мышления и неоднозначности восприятия информации гиб- 
ридная концептуальная модель формализована на основе аппарата нечетких множеств. 

Компьютерные эксперименты, проведенные с предложенной моделью, подтвер- 
дили возможность представления знаний на ее основе и показали эффективность ее 
использования. В результате анализа экспериментов выявлена зависимость уровня 
понимания текста от предметной области. Так, для однозначной в плане терминологии 
области (например, «финансовые рынки») уровень извлекаемых знаний из корпусов 
текстов выше, чем для «многомерных» областей (например, «литературные произве- 
дения»). Это связано с наличием большого числа терминов с не-взаимно-однозначным 
сопоставлением формы и содержания, таких понятий, как синонимы, антонимы, омо- 
графы, полисемия, узуальные значения. Однако согласно опытам когнитивных психо- 
логов подобные различия в восприятии разной тематики наблюдаются и у основного 
числа испытуемых людей. Таким образом, для полноценного использования моделей 
представления и интерпретации текстовой информации, в том числе и разработанной 
нечеткой гибридной модели, необходим механизм однозначного сопоставления тер- 
минов с их смысловым содержанием, вкладываемым в них автором текста или вос- 
принимаемым читателем. 

Целью данной работы является разработка метода обработки текстовой инфор- 
мации на основе нечеткой концептуальной модели представления знаний. 

В общем случае задача интерпретации текста на естественном языке сводится к 
преобразованию входного текста, который представлен в виде уровней конкретизации 
смысловой нагрузки, в элементы нечеткой концептуальной модели (рис. 1). Из извест- 
ных моделей ИИ в основу интерпретации текста положен механизм рассуждения на 
основе опыта, что позволило использовать существующую систему знаний в условиях 
заданной предметной области, и благодаря этому определять адекватность и пред- 
метную направленность текста. Применение вывода на основе опыта позволило 
получить скрытые знания (неявные знания или смысл), содержащиеся в текст. 
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Терминологический синтез 


Фразеологический анализ 
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Нечеткий текст 


Символьный анализ 


Первичный текст 


Рисунок 1 — Процесс обработки текстовой информации 


Входная обрабатываемая конечная последовательность символов алфавита, которая 
может содержать ошибки, названа первичным текстом. Начальной обработкой вход- 
ного текста является терминологическая разметка, в результате выполнения которой 
формируется подмножество терминов с некоторой степенью уверенности присутствия 
их в первичном тексте (нечеткие термины) [2]. Затем выполняется событийная раз- 
метка, которая предполагает построение последовательности фраз из нечетких терминов, 
собранных в определенные структуры (нечеткие фразы). Нечеткие фразы в свою оче- 
редь являются предметом концептуального анализа текста. Для интерпретации тер- 
минов (построение нечетких фраз) и отображения текста в виде событийной модели 
(построение контекста) используется предложенная концептуальная гибридная мо- 
дель (ГМ) представления знаний. 

Задачу однозначного сопоставления терминов с их смысловым содержанием 
предлагается решать на основе событийной разметки. На этапе событийной разметки 
нечеткие термины сопоставляются с элементами ГМ. Нечеткая характеристика термина 
задает фактор уверенности сопоставленного ему элемента. Одновременно с этим выпол- 
няется синтаксический анализ отдельного предложения, в которое входят рассматри- 
ваемые нечеткие термины. По сути, каждый рассматриваемый фрагмент первичного 
текста выступает отдельным предложением естественного языка. При сопоставлении 
термина с узлами классификационных сетей ГМ учитываются также и результаты 
грамматического анализа — определяется часть речи, которую он представляет. Соот- 
ветственно, глаголы (сказуемые) активизируют узлы семантической сети действий, а 
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существительные (подлежащее, дополнение) активизирует узлы сети объектов. Сопут- 
ствующие части речи (например, прилагательные, обстоятельства) выступают в каче- 
стве свойств объектов (набор дополнительных характеристик). В качестве свойств 
узлов действий выступают предлоги, падежи и склонения глагола, которые указывают 
направленность воздействия, временные и другие характеристики. 


Активность узла 1 (фактор уверенности в узле 1) есть нечеткое множество Х (1), 
Кль 


которое задается на базовом универсальном множестве Х, введенном на шкале [0; 1]. 


Х; = их (хр, х Е [0]. (1) 


— 


При активизации узлов значениям их активности сопоставляются значения уве- 
ренности в соответствующих терминах (2). 


их (х) = ит(х), хе [9]. (2) 


После этого активизируются узлыЫ-Ссинонимы. Передача активности от узла к 


узлу выполняется по дуге, соединяющей эти узлы. Значение активности [У, — 


— 


поступившее по дуге @ й от узла }, рассчитывается по формуле (3). 


[УЛ =[Х,/хФ(а,), (3) 


— 


где [Х р ] -— активность смежного узла }, ф(а,„) — поток по дуге @ | [1], знак 
«Х » означает умножение нечеткого подмножества на число. 

Активность передается только тем смежным узлам, в направлении которых дуги 
имеют значения потока больше заданного порога (экспериментальным путем определен 
порог «0,9»). То есть узлам, которые считаются синонимами. Текущая активность 


узла рассчитывается как общая накопленная активность [ У, /,, поступившая от 


— 


всех смежных узлов. В качестве механизма расчета текущей активности узла исполь- 
зуется модель логогена Мортона [1], [3]. Начальное состояние активности узла зада- 
ется нечетким множеством, характеризующим первоначальное отсутствие активности. 
Входом логогена является последовательность нечетких множеств, описывающих уро- 
вень активности смежных воздействующих узлов (3). Выходом является активность 
рассматриваемого узла после воздействия на него близких по смыслу узлов. В ка- 
честве операции изменения активности используется: 


о И и (4) 

где [Х,'] — накопленная ранее активность узла (активность узла { до поступ- 
ления активности от /-го узла), [ У, /, — значение активности вновь поступившего 
свидетельства от [-го узла (3), А — функция ограничения распространения 
активности (5), п — количество воздействующих узлов на узел 1, * — операция 


накопления активности, реализованная в виде пересчета значений абсцисс и ординат 
[-К функции принадлежности для активированных узлов. 
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Таким образом, значения абсцисс [.-К функции принадлежности для узлов, акти- 
вированных при распространении активности, при перерасчете формул вычисляются 


следующим образом: 
ое +х х (1-х Х 0 + 
г, В [Ху] ( Ре (х) 


Соответственно, значения ординат рассчитываются в виде 
и: ®=и 1 (х) + Е: и, (х) х (1-м зе, (%7) х 45); 
ГА 7 ГА 


1-1 
Я №. 


а и (х) = шш (Ф(а, А Игх, 1()) . 


Введение функции Л, позволяет контролировать процесс распространения ак- 
ТИВНоСТИ. 


| 9:2 
= если Ф(а,) (5) 
0, если Ф(а,)<о, 


где д — пороговое значение распространения активности (для узлов-синони- 
мов д=0,9). 

Когда все возможные трактовки терминов первичного текста определены, и все 
соответствующие узлы сетей объектов и действий активизированы, то активность пе- 
редается на событийную модель — активизируются узлы пропозициональной сети. 
При этом семантическая сеть объектом будет иметь два активных подграфа, характе- 
ризующих объект и субъект действия. 

Фактор уверенности в каждом из элементов события формирует корпусную мо- 
дель фразы в виде возможных интерпретаций событий с заданной функцией уверен- 
ности в каждом событии. При этом множество активизированных событий зависит 
от модели мира в базе знаний (заложенных возможных конструкций событий) и от мно- 
жества активизированных узлов семантических сетей. Таким образом, задается не- 
четкая фраза К, (6) как некоторое событие с заданной функцией уверенности в нем. 


Е, = {5 50,1, (6) 


где 5, —/-е событие, 9 — фактор уверенности в ]-м событии (7). 
| я 


9, =(9,П 0; )П 0), (7) 


— — — — 


о . С 
где ©; — фактор уверенности в объекте /-го события, ©, — фактор уверенности 


— — 


в субъекте /-го события, 9, — фактор уверенности в действии (АКТе) ]-го события. 
Факторы уверенности в каждом элементе события есть не что иное, как активность 
соответствующего узла классификационной структуры объектов или действий (3). 
Из множества полученных нечетких фраз отбираем с наибольшим фактором 
уверенности (или с фактором уверенности, превышающим заданный порог). В ре- 
зультате фрагмент обрабатываемого текста в модели будет представлять собой после- 


довательность входных событий (нечетких фраз) Р.Р... Ёу 


Фрагмент входной текстовой информации интерпретируется с учетом контекста. 
Контекст представляет собой активный подграф гибридной модели. Обработка оче- 
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редной нечеткой фразы фрагмента текста заключается в пересчете активности узлов 
подграфа гибридной модели (контекста). В основе подграфа положены узлы пропо- 
зициональной сети. Основной процедурой обработки знаний выступает распространение 
активности по сети. Активность узлов задаётся аналогично формуле (1). 

В процессе интерпретации входных знаний у определенных узлов сети значения 
активности изменяются. При этом перерасчет происходит при обработке каждого со- 
бытия фрагмента текста. Значение активности узла при обработке т-го события фраг- 
мента текста рассчитывается с учетом трех факторов: 

1) т-го события фрагмента текста; 

2) активности узла, полученной при обработке т-1[, т-2, .. т-К событий 
фрагмента текста (К<т); 

3) контекстных знаний. 

Таким образом, значение нечеткого множества активности в момент времени /[ 
определяется как: 

[Х, Л =[^1 1 Ф[Х2, ЛФ[ ХЗ, 1, (8) 


где [Х1, ], — активность, поступившая при обработке т-го события, [ Х2, ], — 


активность узла р, полученная при обработке предыдущих событий текста (состав- 


ляющая активности от памяти), [ ХЗ, 1, — активность, поступившая от контекста (от 


смежных узлов сети), знак «Ф» означает дизьъюнктивную сумму нечетких под- 
множеств [4]. 


Каждая из трех составляющих оказывает воздействие на множество Х; водини 
тот же момент времени 1. Процесс обработки входного фрагмента текста представляет 
собой дискретный во времени и непрерывный по состоянию процесс. Каждое изме- 
нение временного шага связано с обработкой очередного события фрагмента текста. 

Активность, поступившая при обработке т-го события, есть отображение не- 
четкой характеристики входного события (нечеткой фразы) в активность узла. 

С каждым узлом связана память глубиной К, где хранятся К значений актив- 


ности, полученных на предыдущих 7-1 ([ = 1,К , К<т) этапах обработки текста. Актив- 
ностью узла в контекстной памяти будем считать нечеткое множество, полученное 
как выпуклая комбинация нечетких множеств (активности на предыдущих этапах 
обработки) [4]. 

Под воздействием контекстных знаний понимается распространение активности 
внутри сети. 

Распространение активности подразумевает, что на уровень активности узла воз- 
действует активность, передаваемая ему от смежных с ним других узлов сети. Актив- 
ность, поступившая от смежных узлов, рассчитывается по формуле (3). 

При этом следует учесть, что в пропозициональной сети распространение актив- 
ности возможно только по дугам, описывающим такие типы связей, как «во время» и 
«время» [1]. 

Отдельно следует упомянуть проблему «связности» текста, в основе которой — 
обработка цепочки событий по дугам «затем». При обработке текста (при формиро- 
вании контекста) необходимо учитывать, как связаны во времени события, рассматри- 
ваемые на предыдущем этапе обработки и на текущем. Эта задача будет рассмотрена 
в следующих работах. 
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О проблеме интерпретации тестовой информации 


Составляющая активности узла от контекста рассчитывается как общая накоплен- 
ная активность, поступившая от всех возможных смежных узлов. В качестве механизма 
расчета составляющей активности узла от контекста используется модель логогена 
Мортона, рассмотренная ранее. Рассчитывается по формуле (4). 

После нескольких итераций волна распространения активности затухает. На 
этом этап воздействия 77-го события фрагмента текста на контекст модели завершается. 
При обработке следующего события вычисления повторяются. Полученное подмно- 
жество активных узлов будет формировать контекстные знания модели о поступив- 
шем тексте. 

Текущая активность узла определяет наличие элемента, который этот узел 
представляет, в обрабатываемом фрагменте текста. 

На следующем шаге итерации первого такта текущая активность будет представ- 
лена как активность верхнего слоя памяти, и будет учтена при расчете новой активности. 

«Смыслом» анализируемого текста (или контекстом) будем считать цепочку 
событий (фрагмент пропозициональной сети), узлы которой обладают нечеткой 
характеристикой активности. 

В терминах ГМ все знания, содержащиеся во входной текстовой информации, 
будут представлены множеством Т: 


Ра 


— 


УХ, ЕТ => Ч(и, (%х) > 0), хе [6,с] , 


— — 


где 9; -РЙ узел пропозициональной сети, Х; -— активность 1-го узла сети. 
Для выделения контекста разного уровня восприятия текста введено понятие ох -уро- 
вень активности, которое описывает обычное подмножество © -уровня нечеткого отноше- 
ния [4]. В данном случае под нечетким отношением понимается активный подграф вида: 
@& __ . 
Хх = Чи, „ВР; Ш. да Ух в (с, 
р р 


— 


[92 
где [Х;/ — активный подграф ©@-уровня, © — пороговое значение 


— 


активности узлов контекста (Е [0;1]). 


Выводы 


Представленная модель контекста может быть трактована как известный в 
литературе по искусственному интеллекту, но не формализованный метод рассуж- 
дений на основе опыта. Таким образом, рассуждения на основе опыта формали- 
зованы и представлены в виде модели изменения активности сети. Результаты вывода 
на основе неявных знаний (вывод на основе опыта), представленные в виде контекста, 
могут быть использованы для последующих рассуждений на основе поверхностных 
знаний (вывод на основе правил). Создание симбиоза в виде гибридной архитектуры, 
сочетающей в себе рассуждения на основе правил и опыта, позволяет расширить 
перечень задач, поддающихся автоматизации. Использование знаний, полученных 
путем вывода на основе опыта, позволяет расширить область интерпретации текста, 
а как следствие, повысить эффективность автоматизированных систем категоризации, 
аннотации, а также информационно-поисковых систем. 
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ВЕЗОМЕ 


А.Г. Рагатопоу 


Гре РгоЫет о} Тех! Гриетргеаноп 

ш агасе Фе арргоасВ {0 а ргоМет оЁ {ехЕ имегргеайоп 1$ сопзла4еге4. ТВе хепега| 
зсВете о {ехЕ ргосезз1тс 15 ЧезспЬед. ТБе ппефо4 оЁ ицегргеавоп {ехша| шогтайоп оп фе 
Баз1$ оЁ Га7ту сопсерша! плоде] о Кпо\е4ее гергезетаноп [1] 1$ 4Чеуеюреч. 

Раепитайоп$ о Вл77у даёа гергезегцаНоп аге дейпеа. ТВе Га7ту сВагацетзис оЁ 
сопсерша| то4е]$ пебмогКк$ — аспуйЙу 15$ ещеге4. [ 15 оНеге4 о изе Гогта|7е4 состауе 
Моцоп’$ 10о2оеп тод4е! (4). ТВе 5%аое оЁ 1е сопсера| апа|у$1$ 1$ сопзгасеа оп Фе 
Ба$1$ оЁ пебуогК$ аспуйу тоде1. Те то оЁ аснуйу аззште$ Ша Ше зепзе оЁ Ше {ехЕ 15 
Гогте аз зе оЁ Штее сотропеп (8): Ше ргосеззе4 1ехь тетогу ап сощехша1 
Кпо\е4ее. Тре тесваплзта оЁ теазопте оп Фе Баз1$ оЁ ехрепепсе 15$ Гогта|те4 ш ше 
Гоги оЁ{ехЕ ицегргеайноп то4е|. 

Кези {5$ оЁ а сопс$1оп оп Фе Баз1$ оЁ фе (аси Кпо\е4ее (а сопсаз1оп оп Фе Ба$1$ 
ОЕ ехрепепсе), \ШшсЬ аге ргезещеа Бу а сощехь 1$ оНеге4 ю изе ог Фе зибзедиепте 
теазопте оп Фе Ба$15 оЁ зирегИсла1 Кпо\ еее. Озе оЁ сощеха| по4е| аПо\уз ю ехрапа 
агеа оЁ {ехЕ ищегргаайоп, ап4 а$ а гези 6, ю шсгеазе еЁРйслепсу оЁ Ше ааютаеа зузет$ 
ОЁ сщегопхайоп, аппобайопз апа шГогтайоп зеагсВ зу$етиз. 


Статья поступила в редакцию 05.06.2012. 
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